#aprendizaje por refuerzo

Optimización eficiente de hiperparámetros para RL en LLMs

Descubre cómo JF-HPO optimiza hiperparámetros en RL para LLMs, logrando hasta 14.9x más eficiencia y mejoras de rendimiento del 5.8% al 111.6%.

2026-06-03 · 1 min

AnyAudio-Judge: Benchmark con rúbricas dinámicas para audio

Descubre AnyAudio-Judge, el nuevo benchmark con rúbricas dinámicas para evaluar instrucciones de audio.

2026-06-03 · 2 min

Aprendizaje por refuerzo con predicción de videos cross-domain

XIPER: modelo de recompensa con predicción de video para aprender de videos expertos cross-domain. Supera brechas de color, morfología y sim-to-real.

2026-06-03 · 2 min

Cuando RLHF falla: taxonomía de reward hacking, colapso y manipulación

Descubre cómo clasificar y predecir fallos en RLHF como reward hacking y colapso. Estudio empírico con PPO y DPO que revela dinámicas ocultas.

2026-06-03 · 2 min

AirDreamer: Navegación de drones con modelos del mundo

AirDreamer: navegación de drones con modelos del mundo. Logra un 5.3% más de éxito en entornos desconocidos. Transferencia sim-to-real sin ajustes.

2026-06-03 · 2 min

Aprendizaje de refuerzo con incertidumbre y asesoría temporal para autónomos

Descubre cómo el aprendizaje por refuerzo con asesoría experta y control de incertidumbre mejora la seguridad en la conducción autónoma. Resultados en CARLA.

2026-06-03 · 2 min

Reglas tipo grafo para razonamiento en KGs con modelos de difusión

Descubre cómo GRiD usa modelos de difusión y aprendizaje por refuerzo para generar reglas tipo grafo, mejorando el razonamiento en grafos de conocimiento con resultados competitivos.

2026-06-03 · 2 min

AdaCoM: Gestión adaptativa de contexto para agentes LLM

Descubre AdaCoM, un método de gestión de contexto adaptativo que mejora el rendimiento de agentes LLM en tareas largas, preservando restricciones y comprimiendo contenido obsoleto.

2026-06-03 · 3 min

Investigación Profunda con DecomposeR: RL y Recompensa Estructural

DecomposeR optimiza la investigación profunda con RL centrado en planificador y recompensa estructural. Mejora hasta 8 puntos en benchmarks.

2026-06-03 · 2 min

SLAT: Recorte Adaptativo de Segmentos en Razonamiento CoT

SLAT: recorte adaptativo por segmentos reduce un 50% la longitud del razonamiento CoT sin perder precisión.

2026-06-03 · 1 min

Destilación de feedback de LLM para demostración de teoremas en Lean

Aprende sobre Feedback Distillation, un método que mejora la demostración de teoremas en Lean4 superando al GRPO. Incrementa diversidad y eficiencia en el entrenamiento de modelos de razonamiento.

2026-06-03 · 2 min

Aprendizaje de Valor Suavizado en Aprendizaje por Refuerzo

Aprende cómo MVL usa suavizado espacial para estimación de valor estable en RL offline, mejorando navegación y manipulación robótica.

2026-06-03 · 2 min

Optimización de políticas con recompensas híbridas eficientes en energía

Descubre cómo H-EARS mejora eficiencia energética y estabilidad en RL con recompensas híbridas guiadas por física. Resultados en benchmarks y simulaciones.

2026-06-03 · 2 min

La amplificación de errores limita la conversión ANN-SNN en control continuo

La amplificación de errores temporales limita la conversión de ANN a SNN en control continuo. Conoce CRPI, una solución ligera que suprime estos errores y recupera el rendimiento.

2026-06-03 · 2 min

Actor-Critic convergente para MARL mediante aversión al riesgo

Descubre un algoritmo Actor-Critic que converge globalmente en juegos multiagente incorporando aversión al riesgo. Garantías de muestra finita y superioridad sobre métodos neutrales al riesgo.

2026-06-03 · 2 min

IAPO: Optimización de Políticas Informada para Razonamiento Eficiente en Tokens

Descubre IAPO: asigna ventajas a cada token según información mutua. Reduce razonamiento hasta 36% sin perder precisión. Optimiza tus modelos de lenguaje.

2026-06-03 · 2 min

Aprendizaje por Refuerzo con Información Física en Contactos Híbridos

Descubre cómo el aprendizaje por refuerzo con información física (Pi-GCRL) maneja dinámicas de contacto híbridas en manipulación robótica. ¡Entra!

2026-06-03 · 1 min

Razonamiento visual con RL potenciado por intervención adversarial selectiva de entropía

Descubre cómo SaEI mejora el razonamiento visual en modelos de lenguaje-visión mediante intervención adversarial de entropía, aumentando la exploración y diversidad de respuestas en RL.

2026-06-03 · 2 min

Alineación de seguridad en LLMs vía juegos no cooperativos

Descubre cómo un nuevo paradigma entrena dos modelos de lenguaje como atacante y defensor en un juego no cooperativo, mejorando seguridad y utilidad. Resultados sorprendentes.

2026-06-03 · 2 min

MulFeRL: Retroalimentación verbal para aprendizaje por refuerzo en multiturno

MulFeRL mejora el aprendizaje por refuerzo usando retroalimentación verbal en múltiples turnos para superar recompensas escalares y potenciar el razonamiento.

2026-06-03 · 2 min